论文推荐|Mask TextSpotter:An End-to-End Trainable Neural Network
随着对于场景理解的需求不断增加,场景文本的检测和识别受到广泛的关注。近几年来,国内外学者通常将场景文本检测(scene text detection)和场景文本识别(scene text recognition)作为两个子方向来研究并取得了突破性的进展。当然,也有许多学者提出了检测和识别协同工作的端到端训练模型,并提出“识别精度依赖于检测精度,并反作用于检测精度的提升”的观点。
Fig 1是Mask TextSpotter的整体网络结构。Mask TextSpotter基于MaskR-CNN[2],在MaskBranch增加了CharacterSegmentation和Spatial Attentional Module两个heads并进行适当改进而来。Mask TextSpotte以Feature Pyramid Network(FPN)[3]作为主干网络,使用region proposal network(RPN)和Fast-RCNN[4]回归出检测框。
TABLE 3. Results on Total-Text.
TABLE 4. Ablation experimental results.“(a)”means withoutcharacter-level annotations from the real images;“(b)”means without weighted edit distance.∆means the variationcompared to the original version.
TABLE 5. Scene text recognition results. “50”, “1k”, “Full” arelexicons. “0” means no lexicon. “90k” and“ST” are the Synth90k and theSynthText datasets, respectively. “Private” means private training data.
Fig4. Results of Mask TextSpotter
Fig5. Visualization results of the character segmentationmaps and the spatial attention weights
从TABLE 1-3可以看出,文章所提方案在ICDAR2013、ICDAR2015、COCO-Text以及Total-Text上取得了state-of-the-art的结果,特别是端到端比之前的对比算法性能提升明显(例如在ICDAR 2015上提升了10.5%)。
TABLE 4验证了所提方案对于字符级别监督以及编辑距离的敏感程度,也展示了相对于会议版本的性能提升。TABLE 5可以看到,该方案在识别榜上取得了比较大突破,在CUTE80上最为明显。Fig 4是任意形状文本检测的可视化。Fig 5是character segmentation和spatial attention的可视化。(更详细内容请参考原文,链接附后)。
MaskTextSpotter-ECCV版在MaskR-CNN的基础上把原本的Text/Non Text二分类改进为多分类(eg 37类,含字母数字及背景),再加上适当后处理(PixelVoting等)变成了一个简单、有效的端到端方案。由于是在字符级上进行分割及识别,因此可以对任意不规则形状文本(例如曲线文本)进行端到端识别。但此方法的一个局限性是需要字符级的标注来进行训练。
MaskTextSpotter-TPAMI相比MaskTextSpotter-ECCV而言,在Mask branch中增加了Spatial AttentionalModule(SAM)支路,不在需要字符级标注,可直接预测文本行识别结果,为原本语义不够强、位置信息不够明确的识别器提升了性能,并且SAM的加入可以减少网络对于字符级别监督信息的依赖。
MaskTextSpotter使用了语义分割的方法来做文本检测,有利于检测识别任意方向任意形状的文本。
Mask TextSpotter-TPAMI论文地址:https://arxiv.org/pdf/1908.08207.pdf Mask TextSpotter-ECCV论文地址:https://arxiv.org/pdf/1807.02242.pdf Mask R-CNN论文地址:https://arxiv.org/pdf/1703.06870.pdf Feature Pyramid Network论文地址:https://arxiv.org/pdf/1612.03144.pdf Fast R-CNN论文地址:https://arxiv.org/pdf/1504.08083.pdf Tansformer论文地址:https://arxiv.org/pdf/1706.03762.pdf
[1] Lyu P, Liao M, Yao C, et al. Masktextspotter: An end-to-end trainable neural network forspotting text witharbitrary shapes[C]//Proceedings of the European Conference on Computer Vision(ECCV). 2018: 67-83.
[2] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedingsof the IEEE international conference on computer vision. 2017: 2961-2969.
[3] Lin T Y, Dollár P, Girshick R, et al. Feature pyramidnetworks for object detection[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. 2017: 2117-2125.
[4] Girshick R. Fast r-cnn[C]//Proceedings of the IEEEinternational conference on computer vision. 2015: 1440-1448.
[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all youneed[C]//Advances in neural information processing systems. 2017: 5998-6008.
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期推选一些文档图像分析与识别的论文进行介绍,欢迎自荐或推荐此领域最新论文成果给本公众号审阅编排后发布。请发Word版的论文图文介绍材料到:xuegao@scut.edu.cn